三种聚类方法的简单实现

最新推荐文章于 2024-07-07 15:59:16 发布

freedom098

最新推荐文章于 2024-07-07 15:59:16 发布

阅读量1.2w

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/freedom098/article/details/51240795

版权

聚类是机器学习中的无监督学习方法的重要一种，近来看了周志华老师的机器学习，专门研究了有关于聚类的一章，收获很多，对于其中的算法也动手实现了一下。主要实现的包括比较常见的k均值聚类、密度聚类和层次聚类，这三种聚类方法上原理都不难，算法过程也很清晰明白。有关于原理可以参阅周志华老师的机器学习第九章，这里只做一下代码的实现。

运行环境是Python2.7+numpy，说实话，numpy坑还是挺多的，其实用Matlab可能会更简单。

k均值聚类，核心是是不断更新簇样本的质心。

#encoding=utf-8
__author__ = 'freedom'

from numpy import*
import matplotlib.pyplot as plt

def loadDataSet(fileName):
    '''
    本函数用于加载数据
    :param fileName: 数据文件名
    :return:数据集，具有矩阵形式
    '''
    fr = open(fileName)
    dataSet = []
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        inLine = map(float,curLine) # 利用map广播，是的读入的字符串变为浮点型
        dataSet.append(inLine)
    return mat(dataSet)

def getDistance(vecA,vecB):
    '''
    本函数用于计算欧氏距离
    :param vecA: 向量A
    :param vecB: 向量B
    :return:欧氏距离
    '''
    return sqrt(sum(power(vecA-vecB,2)))

def randCent(dataSet,k):
    '''
    本函数用于生成k个随机质心
    :param dataSet: 数据集，具有矩阵形式
    :param k:指定的质心个数
    :return:随机质心，具有矩阵形式
    '''
    n = shape(dataSet)[1] # 获取特征数目
    centRoids = mat(zeros((k,n)))
    for j in range(n):
        minJ = min(dataSet[:,j]) # 获取每个特征的最小值
        rangeJ = float(max(dataSet[:,j]-minJ)) # 获取每个特征的范围
        centRoids[:,j] = minJ + rangeJ*random.rand(k,1) # numpy下的rand表示随机生成k*1的随机数矩阵，范围0-1
    return centRoids

def kMeans(dataSet,k,disMens = getDistance,createCent = randCent):
    '''
    本函数用于k均值聚类
    :param dataSet: 数据集，要求有矩阵形式
    :param k: 指定聚类的个数
    :param disMens: 求解距离的方式，除欧式距离还可以定义其他距离计算方式
    :param createCent: 生成随机质心方式
    :return:随机质心，簇索引和误差距离矩阵
    '''
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2))) # 要为每个样本建立一个簇索引和相对的误差，所以需要m行的矩阵，m就是样本数
    centRoids = createCent(dataSet,k) # 生成随机质心
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        for i in range(m): # 遍历所有样本
            minDist = inf;minIndex = -1 # 初始化最小值
            for j in range(k): # 遍历所有质心
                disJI = disMens(centRoids[j,:],dataSet[i,:])
                if disJI < minDist:
                    minDist = disJI;minIndex = j # 找出距离当前样本最近的那个质心
            if clusterAssment[i,0] != minIndex: # 更新当前样本点所属于的质心
                clusterChanged = True # 如果当前样本点不属于当前与之距离最小的质心，则说明簇分配结果仍需要改变
                clusterAs

最低0.47元/天解锁文章

freedom098

关注

4
点赞
踩
27

收藏

觉得还不错? 一键收藏
2
评论
三种聚类方法的简单实现

聚类是机器学习中的无监督学习方法的重要一种，近来看了周志华老师的机器学习，专门研究了有关于聚类的一章，收获很多，对于其中的算法也动手实现了一下。主要实现的包括比较常见的k均值聚类、密度聚类和层次聚类，这三种聚类方法上原理都不难，算法过程也很清晰明白。有关于原理可以参阅周志华老师的机器学习第九章，这里只做一下代码的实现。运行环境是Python2.7+numpy，说实话，numpy坑还是挺多的，其
复制链接

扫一扫

专栏目录